在本文中,我们调查了如何在重复的上下文首次价格拍卖中出价的问题。我们考虑一个投标人(学习者)在第一个价格拍卖中反复出价:每次$ t $,学习者都会观察上下文$ x_t \ in \ mathbb {r} ^ d $,并根据历史信息决定出价$ x_t $。我们假设所有其他人的最大出价的结构化线性模型$ m_t = \ alpha_0 \ cdot x_t + z_t $,其中$ \ alpha_0 \ in \ mathbb {r} ^ d $对学习者未知,$ z_t $随机地从噪声分布$ \ mathcal {f} $上采样,使用log-tym-tangave密度函数$ f $。我们考虑\ emph {二进制反馈}(学习者只能观察她是否赢)和\ emph {完全信息反馈}(学习者可以在每次$ t $的末尾观察$ m_t $)。对于二进制反馈,当噪声分布$ \ mathcal {f} $时,我们提出了一种竞标算法,通过使用最大似然估计(MLE)方法来实现至多$ \ widetilde {o}(\ sqrt {\ log( d)t})$后悔。此外,我们将该算法概括为具有二进制反馈的设置,并且噪声分布未知,但属于参数化分布。对于具有\ EMPH {Unknown}噪声分布的完整信息反馈,我们提供了一种算法,它在大多数$ \ widetilde {o}(\ sqrt {dt})$上实现后悔。我们的方法将估计器组合了对数凹入密度函数,然后将MLE方法同时学习噪声分布$ \ mathcal {f} $和线性重量$ \ alpha_0 $。我们还提供了一个下限的结果,使得广泛课堂上的任何竞标政策必须至少为\ omega(\ sqrt {t})$而遗憾,即使学习者收到完整信息反馈和$ \ mathcal {f} $已知。
translated by 谷歌翻译